DeepSeek R1
概要
DeepSeek-R1は、大規模強化学習(RL)を活用してLLMの推論能力を向上させたモデル群(DeepSeek-R1-ZeroとDeepSeek-R1)である。
DeepSeek-R1-Zeroは完全にRLのみで訓練された初の大規模モデルであり、高度な推論能力を獲得。
しかし、可読性の低下や言語混在といった課題があったため、冷却開始データ(cold-start data)を用いたDeepSeek-R1を開発。
DeepSeek-R1はOpenAI-o1-1217と同等の推論性能を達成し、その蒸留版を公開して研究コミュニティに貢献している
先行研究と比べてどこがすごい?
従来のモデルは推論能力向上のために教師ありファインチューニング(SFT)を必要としていたが、DeepSeek-R1-Zeroは完全にRLのみで推論能力を獲得した初の事例 Reinforcement Learning with Human Feedback(RLHF)ではなく、純粋なRLにより高度な推論能力が形成されることを実証
OpenAI-o1シリーズと比較可能な推論能力を持つモデルを開発し、QwenやLlamaの小型モデルにも蒸留したことで、推論能力を持つ小型モデルの可能性を示した
技術や手法のキモはどこ?
推論の過程を可視化するため、思考過程を <think> ... </think>、最終回答を <answer> ... </answer> の形式で記述させる手法を採用
深層学習における学習効率向上のため、多段階の訓練プロセスを設計
冷却開始データの導入
リジェクションサンプリング
追加RLプロセス
蒸留により、小型モデルにも推論能力を継承させ、計算コストを抑えつつ推論性能を維持
どうやって有効だと検証した?
AIME 2024、MATH-500、GPQA Diamond、Codeforces、MMLUなどの各種ベンチマークで評価し、OpenAI-o1-1217と同等、またはそれを上回る結果を達成
推論能力を高めるRLと蒸留手法の比較実験を実施し、DeepSeek-R1からの蒸留がRL単独よりも優れた性能を発揮することを示した
多様なタスク(数学、コーディング、一般知識)での性能評価を行い、特に数学・コーディング領域で高い正答率を記録
議論はある?
RLのみで推論能力を獲得するアプローチの汎用性と限界
小型モデルではRL単独では性能が伸びにくく、蒸留が重要
人間のフィードバックなしのRLが推論能力向上に貢献する一方、可読性の低下や言語混在の問題が発生しやすい
蒸留手法による小型モデルの強化は有望だが、今後のRL研究の進展によってはさらなる改善の余地がある
深層学習におけるSFTの重要性と、RL単独でどこまで学習可能かという点についての議論が継続中 次に読むべき論文は?
Reinforcement Learning for LLMs
Lightman et al. (2023)
Uesato et al. (2022)
Wang et al. (2023)
RLの効率的なスケーリング
Shao et al. (2024)
Kumar et al. (2024)
蒸留技術に関する研究
Dubey et al. (2024)
Qwen (2024)
OpenAIの推論強化手法に関する論文
OpenAI (2024b)
OpenAI (2024c)
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!
🐋 1/n
https://pbs.twimg.com/media/GhvI3AoaAAAw-4z.png